正态分布 - 快速入门

作者:Ruben Geert van den Berg,归属于 Statistics A-Z

  • 正态分布 - 一般公式
  • 标准正态分布
  • 正态分布 - 基本属性
  • 从正态分布中查找概率
  • 从逆正态分布中查找临界值
  • 我的变量是否服从正态分布?

定义

正态分布是由以下公式定义的概率密度函数:

\[f(x) = \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{\dfrac{(x - \mu)^2}{-2\sigma^2}}\]

这会产生一个对称的曲线,如下图所示。

正态分布智商分数示例

该曲线下的面积为我们提供了_任何_值区间的百分比或概率。假设这些智商分数呈正态分布,人口平均值为100,标准差为15分:

  • 34.1%的人得分在85到100分之间;
  • 15.9%的人得分在115分或以上;
  • 一个随机的人有50%(或0.50)的概率得分在100分或以下。

在统计学中,正态分布起着两个重要的作用:

  • 频率分布(值与观察值):例如,智商分数在人群中大致呈正态分布。
  • 抽样分布(统计量与样本):比例和均值在样本中大致呈正态分布。 从这个正态分布中,我们可以查找到_任何_观察到的样本均值或比例的概率。严格地说,我们总是查找范围的概率,而不是单独的结果。 这基本上就是统计显著性

正态分布 - 一般公式

正态分布的一般公式是:

\[f(x) = \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{\dfrac{(x - \mu)^2}{-2\sigma^2}}\]

其中:

  • \(\)(“sigma”)是总体标准差;
  • \(\)(“mu”)是总体平均值;
  • \(x\) 是一个值或检验统计量;
  • \(e\) 是一个数学常数,约为 2.72;
  • \(\) (“pi”) 是一个数学常数,约为 3.14。

正态曲线”是通过绘制许多 \(x\) 值的 \(f(x)\) - 概率密度 - 得到的。其水平位置由 \(\) 设定,其宽度和高度由 \(\) 设定。下图给出了一些示例。

不同均值和标准差的正态分布

与所有概率密度函数一样,该公式_不_返回概率。 为了找到这些概率,我们需要找到 \(x\) 值范围的面积,如下所示。

具有概率的标准正态分布

那么如何找到_任何_值范围的概率? 好吧,您可以从正态分布公式的积分手动计算它。 但是,一个更简单的选择是在 Google Sheets 中查找它,我们将在稍后展示。

标准正态分布

标准正态分布是均值 μ = 0 且标准差 σ = 1 的正态分布。将这些数字填入一般公式会将其简化为

\[f(x) = \frac{1}{\sqrt{2\pi}}\cdot e^{\dfrac{x^2}{-2}}\]

标准正态分布是我们_真正_需要的唯一正态分布。为什么? 好吧,我们可以使用正态分布来查找 \(x\) 的概率,如果

  • \(x\) 呈正态分布,并且
  • 我们知道它的总体平均值 μ,并且
  • 我们知道它的总体标准差 σ。

有了这3个数字,我们还可以计算出一个 z-score:

\[z = \frac{x - \mu}{\sigma}\]

这样做所得到的结果是 \(z\) 被赋予一个 μ = 0 且 σ = 1 的标准。 因此,如果 \(x\) 服从正态分布,则 \(z\) 服从_标准_正态分布。

将 \(x\) 转换为 \(z\) 似乎是理论上的。 但是,如果我们运行 t 检验z 检验,这正是发生的情况。 请记住,计算 \(z\) 或标准化值不会以任何方式“规范化”它们。 也就是说,仅当 \(x\) 呈正态分布时, \(z\) 才服从标准正态分布。

正态分布 - 基本属性

在我们查找 Google Sheets 中的一些概率之前,我们应该了解以下几点:

  1. 正态分布始终从 \(-\) 到 \(\) 延伸;
  2. 正态分布的总面积(=概率)始终正好为 1;
  3. 正态分布完全围绕其平均值 \(\) 对称,因此具有零偏度 (skewness)
  4. 由于其对称性,对于正态分布,中位数 (median)始终等于平均值;
  5. 正态分布始终具有零峰度 (kurtosis)

从正态分布中查找概率

此 Google Sheet(只读)显示了如何从正态分布中查找概率。

正态分布查找概率 Google Sheets

只需在某个单元格中键入 =norm.dist(a,b,c,true)

  • a 替换为某个 x 或 z 值;
  • b 替换为总体平均值 μ;
  • c 替换为总体标准差 σ。

这将产生一个左尾概率。 像这样,突出显示的示例告诉我们,如果 z 呈正态分布且 μ = 0 且 σ = 1,则 z < -1 的概率为 0.159 - 大约 16%。

因为表面积 - 或总概率 - 始终为 1,所以我们可以使用以下公式找到任何右尾概率

\(p(X x) = 1 - p(X x)\)

像这样,z > -1 的概率为 (1 - 0.159 =) 0.841。

那么 x 介于 -2 和 -1 之间的概率是多少? 或者 - 正式地 - p(-2 < X < -1)? 好吧,

\(p(x_a X x_b) = p(X x_b) - p(X x_a)\)

因此,这将是 (0.159 - 0.023 =) 0.136 或 13.6%,如下所示。

具有概率的标准正态分布

如果您不确定是否掌握了这一点,请尝试在空白 Google Sheet 中为自己计算上面显示的每个百分比。

从逆正态分布中查找临界值

  • 正态分布告诉我们值范围的概率。 这是检验零假设所必需的。
  • 逆正态分布告诉我们概率的值范围。 这是计算置信区间 (confidence intervals)所必需的。

此 Google Sheet(只读)说明了如何找到正态分布变量的临界值。

正态分布查找临界值 Google Sheets

只需在某个单元格中键入 =norminv(a,b,c)

  • a 替换为左尾概率;
  • b 替换为总体平均值 μ(通常为 0);
  • c 替换为总体标准差 σ(通常为 1);

请记住,不包括某个参数的概率在两个尾部分布均匀。 对于 95% 的置信区间,它为 0.05。 这个 0.05 分为 0.025 的左尾和 0.025 的右尾。

对于标准正态分布,这导致 -1.96 < Z < 1.96。 下图说明了这是如何工作的。

具有临界值的标准正态分布

此处显示的确切临界值都在此 Google Sheet(只读)中计算。

我的变量是否服从正态分布?

许多统计程序,例如 ANOVA,t 检验, 回归 (regression) 等,都需要正态性假设 (normality assumption):变量在总体中必须呈正态分布。 只有对于小样本量(例如,N < 25 左右)才需要此假设。 对于较大的样本,中心极限定理 (central limit theorem) 使大多数检验对违反正态性具有稳健性 - 但让我们改天再讨论这个问题。

无论如何。 如果一个变量在某个总体中呈正态分布,那么它也应该在某个样本中大致呈正态分布。 第一个检查 - 简单而可靠 - 是从直方图检查其频率分布。

具有正态曲线的直方图

SPSS 中,我们可以非常轻松地将正态曲线添加到直方图中。 此正态曲线被赋予与观察到的分数相同的平均值和标准差。 它快速显示观察到的分布与正态分布的偏差(多少)。

第二个检查是检查描述性统计,特别是偏度和峰度。 一些正态分布的基本属性

如果在某个总体中这是真的,那么观察到的变量可能不应具有大的(绝对)偏度或峰度。 下面的示例表突出显示了与此的一些显着偏差。 它们表明反应时间 2、3 和 5 可能_不_在某个总体中呈正态分布。

显示包括偏度和峰度在内的描述性统计的表

最后,有 2 个正态性检验 (normality tests):用于评估总体正态性的统计检验。 这些是

这两个测试的目的完全相同:它们测试变量在某个总体中呈正态分布的零假设。

显示 Shapiro-Wilk 正态性检验结果的表

可悲的是,这两个测试在小样本量中都具有低功效 (power) - 恰恰是在真正需要正态性时。 这意味着即使正态性不成立,它们也可能不会拒绝正态性。 像这样,它们可能会产生一种虚假的安全感,因此我们不建议使用它们。

感谢阅读!